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Data Mining іп the service of птар 
Проблема 


Мир не стоит не месте, все развивается, сетевые сканеры в 
том числе. Начиная от дедушки птар 1.0 (September 1, 1997), 
сканеры развиваются в раличных направлениях. 


е Сканирование всего интернета (zmap) 

е Сканирование уязвимостей в сервисах (птар scripting 
engine и другие коммерческие сканеры безопаности) 

е Интегрированный ТСР стек (polarbear from ІОАсііуе) 
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Но сканирования обнаруживаются IDS/IPS 
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Обход 


Сканирование через сторонние сервисы (ftp bounce, proxy) 
Уязвимости в самом IDS/IPS 

Всякие сетевые хитрости (https://nmap.org/book/man- 
bypass-firewalls-ids.html) 

Сканировать медленнее чем [0$ хранит историю 
Рассмотрим именно такой подход сканирования с 
задержками, мы хотим его сделать эффективнее 
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Как найти максимальное количество 
портов за минимальное количество 
запросов? 
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Internet Census 2012 


http://internetcensus2012.bitbucket.org 

420K взломанных домашних маршрутизаторов (пароли по 
умолчанию) 

Просканировали весь интернет! 

Dataset: 9TB of raw logfiles (500Gb in zpaq) 
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460 Million reachable IPv4 addresses observed from June 2012 to October 2012 using ICMP Ping requests and Port Scans. 


Source: Carna Botnet 
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Методика 


е На основе данных о всех хостах в интернете строим 
оракул, который будет предсказывать наиболее вероятные 
порты 

е Идея очень проста: порты не встречаются сами по себе, 
они встречаются группами, так давайте хранить не список 
самых вероятных портов, а список самых вероятных групп 
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Методика 


e [lo сути группы соответствуют различным классам сетевых 
устройств/сервисов 

е Если нашли открытые порты X,Y и закрытый Z, то 
вероятнее всего будут открыты порты из групп где есть 
порты X или Y, и нет Z 
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Методика 


е Сначала мы пытались применить всякие умные алгоритмы 
и machine learning, делая вид, что умеем это 

е Но дерево решений для сканирования будет 
экспоненциального размера, значит, его построение тоже 
экспоненциально 

е Алгоритмы классификации не в тему 
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Методика 


е Что еще можно? Можно пробовать кластеризовать 
результаты скана и получить классы сервисов (“сайт”, 
“циска”, ‘винда’, ...) 

е Проблема: в датасете интернет-скана много МАТ-узлов, 
отравляющих обучение 

е Проблема: в датасете много зафаерволенных хостов, в 


которых виден только порт 80 
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Методика 


е Для кластеризации нужно метрическое пространство 
Можно взять какой-нибудь simhash, или можно взять длину 
LCS, которая динамически вычисляется за произведение 
длин последовательностей 

Но у нас около 10^7 уникальных последовательностей, а 
подходящая кластеризация работает не лучше чем за 
квадрат 

К тому же из МАТ-последовательностей надо вычленять 
разумные подпоследовательности портов 
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Методика 


e Keep It Simple, Stupid! 

е Давайте просто сортировать статистику 7) 

е В качестве базовой статистики, по которой начинаем 
сканировать без предварительных знаний, для начала 
возьмём топ портов 
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Сколько открытых портов B интернете? 
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TOP13 самых встречаемых групп 
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TOP13 самых встречаемых групп 
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Чем плох NMap? 


e Чем плох NMap? Много чем, там много наследия прошлого 
е Главное - он медленный 


е По умолчанию ММар сканит по топу портов (4243 порта), 
при полном наборе сканит случайным образом 
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Результаты 


е Пока что с лобовым алгоритмом и предварительной статой 
уже получилось ускорение на 42% относительно ММар 

е Статистику измеряли путём имитации сканирования 

е При этом сравнивалось, за какое количество запросов наш 
алгоритм находит столько же портов, сколько всего нашел 
ММар (по умолчанию он не ищет дальше своего топа) 
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Результаты 
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Планы на будушее 


Патч для птар, изменяемая стратегия сканирования 
Данные по интранету (внутренние пентесты) 

Компактный словарь 

(сейчас 150M6 и самый полный 666M6) 

Более точная кластеризация на основе данных протокола 
(Тип сервиса, версия, ОС ит.д.) 
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Вопросы 
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